貝氏主題混合資訊檢索模型 (Bayesian Topic Mixture Model for Information Retrieval) [In Chinese]

نویسندگان

  • Meng-Sung Wu
  • Hsuan-Jui Hsu
  • Jen-Tzung Chien
چکیده

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

具相關資訊回饋能力之貝氏混合式機率檢索模型 (Using Relevance Feedback in Bayesian Probabilistic Mixture Retrieval Model) [In Chinese]

摘要 本篇論文提出新穎之相關回饋(Relevance Feedback)方法並應用於混合式機率檢索系統(Mixture Probability Model)以提昇檢索效能。相關資訊回饋法以往最常用的技術是查詢句擴充法(Query Expansion),本回饋方式 是架構在以混合式機率模型為主的檢索系統上,為了加強檢索效能,我們是在查詢句擴充法中,強調不同查詢 詞的重要性,所以提出查詢詞權重重調整(Query Term Reweighting)技術;此外,我們也利用檢索出來的前 N 名文件和資料庫的每份文件個別重調成新的文件語言模型,以提供較好的文件語言模型提供檢索時使用。在查 詢字權重之重調整部分以最佳相似度(Maximum Likelihood)為估測準則,而文件語言模型之調整部分先後以 最佳相似度與最佳事後機率(Maximum a Posteriori)為估測準則供我們對照比較,...

متن کامل

Semantic Associative Topic Models for Information Retrieval

主題模型(topic model)被廣泛地應用在各種文件建 模以及語音識別、資訊檢索和本文探勘系統中,有 效地擷取文件或字詞的語意和統計資料。大多數主 題模式,例如機率潛在語意分析(probabilistic latent semantic analysis) 和 潛 在 狄 利 克 里 分 配 (latent Dirichlet allocation),主要都透過一組潛藏的主題機 率分布來描述文件與字詞之間的關係,並用以擷取 文件的潛在語意資訊。然而,傳統的主題模型受限 於詞袋(bag-of-words)的假設,其潛藏主題僅能用來 擷取個體詞(individual word)之間的語意資訊。雖然 個體詞可傳達主題信息,但有時會缺乏本文準確的 語意知識,容易造成文件的誤判,降低檢索的品 質。為了改善主題模型的缺點,本論文提出一種新 穎的語意關聯主題模型(semantic associ...

متن کامل

主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]

本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...

متن کامل

基於稀疏成份分析之旋積盲訊號源分離方法 (Convolutive Blind Source Separation Based on Sparse Component Analysis) [In Chinese]

本論文針對的是在不知道源訊號個數的情況下,一個稀疏欠定的旋積盲訊號源分 離。我們的演算法分為兩個階段,先估計混合矩陣然後才利用此矩陣分離源訊號。在 估計混合矩陣上,首先定義了兩個特徵參數,包括了 Level-Ratio 以及 PhaseDifference,我們藉由 KNN Graph 方式,去除資料中的離群樣本,並用 K-Means 分群 演算法對其餘的資料分群,然後應用 DOA 解決不同頻率間的排列問題,以達到估計混 合矩陣的目的。此外,我們對此混合矩陣進行相位之補償,以獲得更精確之混合矩陣 估計。本方法是建立於最大後驗機率方法上,在求得混合矩陣之後,利用最小 L1 範數 去解一個欠定的線性最佳化問題。此外,對於未知的源訊號個數,我們利用 K-Means 演算法和貝氏資訊準則作結合,並對所有頻帶的結果做整體考量,以達到估測源訊號 個數的目的。在實驗模擬的部分,會將我們提出的方法與...

متن کامل

使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]

摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2007